Day 6 - SRE 照書養：緊急事件處理 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 6

自我挑戰組

SRE 照書養系列第 6 篇

Day 6 - SRE 照書養：緊急事件處理

15th鐵人賽 sre mttr mttf

小學生

2023-09-20 15:03:18

1129 瀏覽

分享至

大家週三好，嗚嗚這週要上六天班好漫長，今天我們要繼續 SRE 方法論的第四條：緊急事件處理，這裡是今天讀的原文出處：Introduction，話不多說，我們開始囉！

以前常常聽到「我們家的系統是高可用性，有 5 個 9 那麼多！」，一直都不太知道這個數字怎麼來的，還有可用性的定義到底是什麼？今天藉由 Google SRE Book 來帶我們看看吧！

什麼是高可用性？我們為什麼需要高可用性？

書上沒有直接定義高可用性，所以借用一下維基百科的定義：

高可用性（英語：high availability，縮寫為 HA），指系統無中斷地執行其功能的能力，代表系統的可用性程度。是進行系統設計時的準則之一。高可用性系統與構成該系統的各個組件相比可以更長時間運行。

評價一個系統是否是「高可用性」，我們可以從 MTTR 知道一些端倪，下面就來說說書裡提到的兩個專有名詞：

MTTR（平均恢復時間）：在發生故障後，需要多長時間來修復並恢復正常操作的平均時間。
MTTF（平均失敗時間）：在設備或系統正常運行期間，平均需要多長時間才會發生故障或失效的時間間隔。

如果我們做一個時間序的圖，會長成下面這個樣子：

那麼如何計算可用性呢？

可用率（%）=（實際運行時間 / 預定運行時間）× 100%

所以若像上面提到的 5 個 9，那就是在一年 525,600 分鐘中，只能也 5 分鐘的停機時間。（好驚人！

另外書中提到 自動修復 > 人工干預 的概念，但倘若真的需要人工干預，建立「維運手冊」則是一個很好控制修復時間的手段：

通過事先預案並且將最佳方法記錄在「運維手冊（playbook）」上通常可以使MTTR 降低3倍以上。

今日思考題

除了「高可用性」，有時也會聽到「高可靠性」，那麼這兩個差在哪呢？

上面提過高可用性的定義，那我們先來看看高可靠性的定義：

高可靠性：一個服務連續無故障運行的時間，無故障運行的時間越長，可靠性就越高。

根據這個定義，我們可以用這個公式來衡量系統可不可靠：

故障率（%）= 故障次數 / 單位時間（即小時、週、月等）× 100%

可以看得出來高可用性跟高可靠性是有些相關性存在的，下面來腦洞思考一下會發生什麼事：

一個高可用性，又很可靠的系統 → 💯
一個高可用性，但不可靠的系統 → 在購物平台上，服務都可存取，不過提交訂單跳出一直失敗。
一個高可靠性，但不可用的系統 → 在購物平台上，服務常常不能存取，在系統能夠提供服務ㄉ情況下，可以成功送出訂單買到想要的貨物。
一個不可靠也不可用的系統 → 🤬

OS：如果一個系統可用性低，好像很難評估他是否高可靠（畢竟常常不能用）。

好拉！這就是今天思考題的部分拉！不知道大家是怎麼看兩個指標的呢？

後記

今天了解了緊急事件的名詞與流程，也提到了維運手冊的部分。我也十分認同建立維運手冊的重要性，除了可以讓每次發生意外時，降低緊張感，也可以模糊化特定角色的重要性（講白話就是我就算請假，若剛好有意外發生，職代也可以好好地將維運工作完成！），明天的內容是「變更管理」！那麼就明天見拉！掰噗！

參考資料

Day 5 - SRE 照書養：監控系統

Day 7 - SRE 照書養：變更管理

系列文

SRE 照書養共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

vs code不能執行npm找了很多方法

IT邦幫忙

SRE 照書養系列 第 6 篇